#Blackwell GPU
輝達B30性能將為Blackwell GPU的80%
8月24日消息,據《華爾街日報》最新的報導指出,人工智慧(AI)晶片廠商輝達(NVIDIA)正為中國市場開發一款基於最新 Blackwell 架構的定製版AI晶片B30,性能將達到Blackwell GPU的80%。Blackwell GPU系列包括B100、B200、B300等型號,報導所指的“標Blackwell GPU”可能為B100。報導稱,輝達已經向美國政府提交了B30晶片的對華出口許可申請,以批准向中國出口。這些談判於今年早些時候開始,但是最終能否獲得許可仍不確定。此前在與黃仁勳會晤批准H20對華出口許可後,川普接受媒體採訪時曾表示,他不會允許Blackwell晶片在沒有大幅降級的情況下銷往中國。川普說,如果 Blackwell 的性能比該公司的頂級產品性能低至少 30%,他將允許輝達出貨。“我有可能就‘以消極方式得到一些增強’的Blackwell GPU達成協議,”川普對記者說。“換句話說,從中扣除 30% 到 50%。”他還提到,黃仁勳計畫再次拜訪他,以就Blackwell晶片的出口許可證進行談判。川普的此番言論,似乎也為後續輝達B30獲批埋下了伏筆。畢竟,輝達H20在重新獲批後,如果在中國市場銷售情況不佳,即使川普政府可以分享15%的銷售額,但是恐怕也拿不到多少錢。如果川普政府想要從輝達在華貿易中獲取更多的銷售分成,那麼就很有可能會批准更具競爭力的B30的對華出口。當然,B30的性能相比頂級的B300必然也是需要大幅削減的,特別是在HBM容量和記憶體頻寬方面,但至少應該會比H20性能更強。此前路透的報導稱,輝達最新的對華提供的Blackwell 架構GPU是基於單晶片版本的B300(即B300A)打造,因此型號或為“B30A”。根據資料顯示,B300A基於台積電4nm製程,CoWoS-L 先進封裝,擁有144GB HBM3E,功耗為600W。路透社的報導還指出,輝達希望最早在下個月向中國客戶提供樣品進行測試。 (芯智訊)
一文帶你詳細瞭解輝達Blackwell B200 GPU
2024年3月,輝達在GTC大會上正式發佈了基於Blackwell架構的B200 GPU。Blackwell架構的發佈是輝達技術創新的又一力作。B200 GPU為訓練和推理萬億參數的大型語言模型(LLM)提供了無與倫比的計算能力,同時在能效和安全性方面實現了顯著提升。一 Blackwell架構的核心特性Blackwell架構以美國數學家David Harold Blackwell命名,象徵著其在計算領域的開創性。相較於前代Hopper架構,Blackwell在設計和性能上實現了多項突破,以下是其核心特性:1、雙晶片設計與2080億電晶體B200 GPU採用雙晶片(dual-die)設計,每個晶片面積超過800平方毫米,總計包含2080億個電晶體,是Hopper H100(800億電晶體)的兩倍以上。這種設計通過10 TB/s的晶片間高速互聯(NV-HBI)將兩個晶片整合為一個統一的CUDA GPU,顯著提升了計算密度和性能。這種多晶片模組(MCM)技術解決了單晶片在物理尺寸和製造工藝上的限制,為處理複雜AI工作負載提供了更大空間。2、先進的製造工藝B200採用台積電定製的4NP工藝,相較於H100的4nm工藝,性能提升約6%。這一工藝不僅提高了電晶體密度,還最佳化了功耗效率,使B200能夠在高性能的同時保持相對可控的能耗。3、第二代Transformer引擎Blackwell引入了第二代Transformer引擎,支援4位浮點(FP4)計算,結合NVIDIA TensorRT-LLM和NeMo框架,顯著提升了大型語言模型的推理效率。FP4精度允許在保持模型精準性的同時,處理更大的模型規模,推理性能較H100提升高達30倍。這一特性特別適合生成式AI應用,如聊天機器人和推薦系統。4、第五代NVLink與擴展性第五代NVLink提供每個GPU 1.8 TB/s的雙向頻寬,支援多達576個GPU的互聯。這種高頻寬互聯技術確保了大規模AI叢集的高效通訊,特別適合訓練超大規模模型。例如,GB200 NVL72系統通過NVLink連接36個Grace CPU和72個Blackwell GPU,推理性能較H100提升30倍。5、安全與可靠性B200是首款支援TEE-I/O的GPU,提供先進的機密計算能力,幾乎不影響加密模式下的性能。這種特性對於保護AI模型和客戶資料的隱私至關重要,適用於金融、醫療等敏感行業。此外,Blackwell的RAS(可靠性、可用性、服務性)引擎利用AI進行預測性維護,監控數千個資料點,減少當機時間。6、資料解壓縮引擎B200配備專用解壓縮引擎,支援LZ4、Snappy和Deflate等格式,加速資料分析任務。這對於需要處理大規模資料集的科學計算和企業應用尤為重要。與Hopper架構相比,Blackwell在計算性能、記憶體頻寬和擴展性上全面升級,尤其是在低精度計算和大規模叢集支援方面,展現了其為生成式AI時代量身定製的特點。二 B200 GPU詳細規格以下是B200 GPU關鍵技術參數:圖2-1 推理性能比H100高出15倍圖2-2 訓練速度比H100提高3倍圖2-3 與H100相比,將能源效率提高12倍,成本降低12倍記憶體:192GB HBM3E記憶體和8 TB/s的頻寬使B200能夠處理超大規模模型的參數,適合萬億參數LLM的訓練和推理。計算性能:9 PFLOPS的FP4性能意味著B200在低精度推理任務中表現出色,而4.5 PFLOPS的FP8性能則平衡了精度和速度。40 TFLOPS的FP64性能支援高精度科學計算。功耗:1000W的TDP較H100(700W)有所增加,反映了更高性能的需求,但其25倍的能效提升(相較於H100)降低了總體擁有成本。互聯:第五代NVLink和PCIe 6.0確保了高效的資料傳輸,特別是在多GPU叢集中。三 與競爭對手的比較與AMD的Instinct MI300X GPU進行對比:具體分析如下:記憶體與頻寬:B200的HBM3E記憶體提供8 TB/s頻寬,遠超MI300X的5.3 TB/s,這在處理大型資料集時具有明顯優勢。計算性能:B200在FP8和FP16的密集計算性能高於MI300X的稀疏計算性能,尤其在AI推理任務中更具優勢。然而,MI300X在FP64性能上略勝,適合高精度科學計算。功耗:MI300X的750W TDP低於B200的1000W,但在能效比上,B200的25倍能效提升更具吸引力。技術特性:B200的第二代Transformer引擎和機密計算能力是其獨特優勢,而MI300X依賴AMD Infinity Fabric技術提供高效GPU間通訊。總體而言,B200在AI最佳化和記憶體頻寬方面領先,適合生成式AI和大規模模型訓練,而MI300X在高精度計算和較低功耗方面具有競爭力。四 對AI與計算領域的影響B200 GPU的發佈對AI和計算領域具有一定影響,具體如下:推動超大規模模型發展:B200的192GB記憶體和9 PFLOPS FP4性能使其能夠處理高達10萬億參數的模型。例如,輝達CEO黃仁勳曾表示,訓練一個1.8萬億參數的GPT模型,使用2000個B200 GPU僅需90天,功耗為4兆瓦,而H100需要8000個GPU和15兆瓦。這種效率提升將加速超大規模模型的研發,推動AI在自然語言處理、圖像生成等領域的突破。企業AI轉型加速:B200整合在DGX B200和GB200 NVL72等系統中,為企業提供了從資料準備到推理的統一AI平台。其支援的多樣化工作負載(如推薦系統、聊天機器人)使企業能夠快速部署AI解決方案。例如,DGX B200系統提供72 PFLOPS訓練性能和144 PFLOPS推理性能,適合各種規模的企業。能效與成本最佳化:B200的25倍能效提升(相較於H100)顯著降低了資料中心的營運成本。結合液冷技術,B200在高性能下仍能保持較低的能耗,這對於大規模AI部署至關重要。理解晶片架構背後的邏輯,才能真正用好每一份算力。參考文獻:《NVIDIA Blackwell:The engine of the new industrial revolution》(AI算力那些事兒)
輝達RTX Pro 6000 Blackwell GPU發佈:性能與記憶體大幅提升!
輝達新一代工作站GPU——RTX Pro 6000 Blackwell的規格近日曝光,顯示出其在性能和記憶體容量上的顯著提升。根據LeadTek網站的洩露資訊以及NBD貨運記錄,RTX Pro 6000 Blackwell GPU擁有24,064個CUDA核心,配備96GB GDDR7視訊記憶體,功耗為600W,相比前代RTX 5090 GPU,CUDA核心數量增加了11%。 此次曝光的RTX Pro 6000 Blackwell GPU是輝達在RTX 6000 Ada發佈兩年多後的下一代產品。從命名上看,輝達為下一代工作站卡引入了新的“Pro”標籤,旗艦產品仍屬於“RTX 6000”系列,但增加了“X”識別碼。儘管輝達的工作站產品命名法一直不夠統一,但此次的“Pro”標籤似乎暗示了更高的性能定位。 根據洩露的規格資訊,RTX Pro 6000 Blackwell系列包括兩個版本:RTX Pro 6000 X Blackwell和RTX Pro 6000 Blackwell。兩款GPU均配備96GB GDDR7視訊記憶體,採用512位記憶體介面,視訊記憶體由多個24Gb(3GB)晶片組成,兩個晶片共享一個32位記憶體控製器。非“X”版本的RTX Pro 6000 Blackwell擁有188個流處理器(SM),相當於24,064個CUDA核心,佔GB202晶片的97.9%。而主銷的RTX Pro 6000 X Blackwell則採用GB202-870晶片,預計將啟用所有192個SM。 RTX Pro 6000 Blackwell的功耗為600W,是RTX 6000 Ada所需功耗的兩倍多,但可以通過一根12V-2x6電源線滿足供電需求。這一高功耗設計表明,該GPU旨在滿足專業應用的高性能需求,尤其是在人工智慧訓練和推理、遊戲開發、內容創作、專業可視化(ProViz)和電腦輔助設計(CAD)等領域。儘管96GB的視訊記憶體容量對於大多數遊戲場景而言可能過剩,但在上述專業應用中,大容量視訊記憶體將提供顯著優勢。
歷史記錄!甲骨文豪擲13萬塊Blackwell GPU,打造全球最大的算力集群。總投資200億美元
Oracle,全名為甲骨文,是全球領先的資訊管理軟體及服務供應商,總部位於美國加州的紅木城。公司成立於1977年,Oracle的主要業務是資料庫管理系統,其開發的Oracle資料庫產品因其性能卓越而聞名,被廣泛應用於各行各業,特別是被財富排行榜上的前1000家公司以及眾多大型網站所採用。除了資料庫管理系統外,Oracle還提供了一系列的企業軟體解決方案,涵蓋企業資源規劃、客戶關係管理、供應鏈管理,幫助企業提高管理效率、降低成本並增加競爭力。 01 /OCI超級叢集:雲端AI效能的全新巔峰131,072塊輝達Blackwell GPU Oracle正醞釀其最新力作-OCI超級集群,重塑AI超級運算領域。不只是一台普通的雲端超級計算機,是Oracle向未來AI時代堅定大基建。 OCI超級集群算力巨擘,這台超級電腦將搭載前所未有的131,072塊輝達Blackwell GPU,這一數量不僅刷新了最新的記錄,驚世駭俗的投資。如果這些GPU齊力並發,OCI超級叢集的峰值效能預計將飆升至爆表的2.4 zettaflops,也就是說每秒超過十億億次的運算能力,全球最頂尖的超級電腦也望塵莫及。這裡的效能標準採用了FP8,之前有解釋過,是專為AI優化,相較於傳統的FP64計算,FP8在保證精度的同時,大幅提升計算效率。 02 /靈活與安全並重的雲端AI服務多元化配置與未來探索